概率与统计：不确定性的科学：统计推断中的最优性定义

在浩瀚的统计数据荒野中，我们是追寻真相的猎人——那个真实的参数 $\psi(\theta)$。但究竟如何判断哪支箭（估计量）才是最佳选择？ 最优性 最优性并非模糊的感受；它是一种数学艺术，旨在最小化损失。要找到‘最佳’估计量，我们应关注均方误差（MSE），它精妙地分解为两种基本力量之间的张力：方差与偏差。

定义黄金标准：均方误差（MSE）

为了量化我们的估计值 $T$ 与真实值 $\psi(\theta)$ 之间的差距，我们定义 均方误差 （定义 6.3.1）：

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

这是估计量与目标值之间平方距离的平均值。一个完美的估计量其均方误差应为零，但在充满随机噪声的世界中，我们努力使其最小化。

定理 8.1.1：误差的结构

为什么一个估计量会失败？定理 8.1.1 提供了蓝图。若 $T$ 具有有限的二阶矩，则相对于任意常数 $c$ 的误差为：

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

该公式表明，总平方误差仅在当我们选择 $c = E(T)$ 时才能最小化。在推断的语境下，我们设 $c = \psi(\theta)$，从而得出著名的分解式：

MSE = 方差 + 偏差²

精度与准确度的权衡

想象实验室中有两台称重秤：

精确古物： 它每次显示相同的重量（低方差），但存在 2 克的校准偏差（高偏差）。
反复无常的智者： 它平均而言是正确的（偏差为零），但在测量之间波动剧烈（高方差）。

定理 8.1.1 使我们能够精确计算出哪台秤的总误差更低。通常，只要能显著降低噪声（方差），我们愿意接受少量系统性偏差（偏差）。

例 8.1.1：充分性与信息

最优性与信息有关。考虑样本空间 $S = \{1, 2, 3, 4\}$。如果在所有可能的参数下，结果 2、3 和 4 的可能性相等，那么它们具有 相同的似然。我们可以定义一个充分统计量 $U$，将这些结果归为一类，而不会丧失做出最优推断的能力。如模拟所示，若 $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$，则最优估计量会将它们视为一个单一的信息事件。

🎯 核心原则

当估计量最小化期望损失时，它即为最优。对于平方误差损失，这意味着找到方差与偏差²之和达到绝对最小值的点。

问题 1

假设样本 $(x_1, ..., x_n)$ 来自正态分布 $N(\mu, \sigma_0^2)$，其中 $\mu$ 未知而 $\sigma_0^2$ 已知。求第二个矩 $\mu^2 + \sigma_0^2$ 的最小方差无偏估计量（UMVU）。

T = x̄² + σ₀²(1 - 1/n)

T = x̄² + σ₀²

T = x̄² - σ₀²/n

T = Σxᵢ² / n

问题 2

根据定理 8.1.1，哪个 $c$ 值能使表达式 $E((T - c)^2)$ 最小？

c = ψ(θ)

$c = E(T)$

$c = Var(T)$

$c = 0$

问题 3

在均方误差的语境下，$Bias(T)$ 定义为何？

E(T) - ψ(θ)

$Var(T) - E(T)$

ψ(θ) / E(T)

E(T²) - [E(T)]²

问题 4

在例 8.1.1 中，当 $U(2) = U(3) = U(4) = 1$ 时，为何 $U(s)$ 是一个充分统计量？

因为对所有 $\theta$，似然函数 $L(\theta|2)$、$L(\theta|3)$ 与 $L(\theta|4)$ 都相同。

因为概率之和为 1。

因为 $s=1$ 的概率最高。

因为样本空间是有限的。

问题 5

如果一个估计量是无偏的，其均方误差等于：

它的方差

它的偏差平方

零

真实参数值